PointNet ++是Point Cloud理解的最具影响力的神经体系结构之一。尽管PointNet ++的准确性在很大程度上已经超过了诸如PointMLP和Point Transformer之类的最近网络,但我们发现,大部分性能增益是由于改进的培训策略,即数据增强和优化技术,而不是架构大小,而不是架构的大小,而不是架构。创新。因此,PointNet ++的全部潜力尚未探索。在这项工作中,我们通过对模型培训和缩放策略进行系统的研究来重新审视经典的PointNet ++,并提供两个主要贡献。首先,我们提出了一组改进的培训策略,可显着提高PointNet ++的性能。例如,我们表明,如果没有任何架构的任何变化,则可以将ScanObjectnn对象分类的PointNet ++的总体准确性(OA)从77.9 \%\%提高到86.1 \%,即使超过了最先进的端点”。其次,我们将倒置的残留瓶颈设计和可分离的MLP引入到PointNet ++中,以实现高效且有效的模型缩放,并提出了PointNext,即PointNets的下一个版本。可以在3D分类和分割任务上灵活地扩展PointNext,并优于最先进的方法。对于分类,PointNext的总体准确度为ScanObjectnn $ 87.7 \%$,超过了PointMLP $ 2.3 \%$,而推断的$ 10 \ times $ $。对于语义细分,PointNext建立了新的最先进的性能,$ 74.9 \%$ MEAN IOU在S3DIS上(6倍交叉验证),优于最近的Point Transformer。代码和型号可在https://github.com/guochengqian/pointNext上获得。
translated by 谷歌翻译
基于模型的强化学习中的世界模型通常会面临不切实际的长期预测问题,因为随着预测错误的积累,复杂的错误。图形结构化世界模型中的最新作品通过构建图表来表示环境,提高了长途推理能力,但它们是在目标条件的设置中设计的,无法指导代理在没有传统的强化学习环境中最大化情节回报外部给定目标状态。为了克服这一限制,我们通过构建基于指导的马尔可夫决策过程(MDP),在离线增强学习中设计了图形结构化的世界模型,并将分配给每个定向边缘的奖励作为原始连续环境的抽象。与原始环境相比,由于我们的世界模型具有较小且有限的状态/动作空间,因此可以在此处轻松地应用价值迭代来估计图表上的状态值并找出最佳未来。与以前需要外部提供目标的图形结构化世界模型不同,我们的世界模型(称为Value Memory图(VMG))可以单独提供具有较高值的​​所需目标。 VMG可用于指导低级目标条件政策,这些政策通过监督学习培训以最大化情节回报。 D4RL基准测试的实验表明,VMG可以在多种任务中胜过最先进的方法,在这些任务中,长时间的地平线推理能力至关重要。代码将公开可用。
translated by 谷歌翻译
对计算机视觉的自我监督学习取得了巨大的进步,并改善了许多下游视觉任务,例如图像分类,语义细分和对象检测。其中,诸如MAE和Beit之类的生成性自我监督的视力学习方法显示出令人鼓舞的表现。但是,它们的全球掩盖重建机制在计算上是要求的。为了解决这个问题,我们提出了本地蒙版重建(LOMAR),这是一种简单而有效的方法,在一个简单的变压器编码器上的7 $ \ times $ 7补丁中执行蒙版重建,从而提高了效率和准确性之间的权衡。在整个图像上全局掩盖重建。广泛的实验表明,Lomar在Imagenet-1K分类方面达到了84.1%的TOP-1准确性,优于MAE的MAE比0.5%。在以384 $ \ times $ 384的图像为审计的LOMAR进行了预审经后,它可以达到85.4%的TOP-1准确性,超过MAE的0.6%。在MS Coco上,Lomar在0.5 $ \ text {ap}^\ text {box} $上以0.5 $ \ text {ap}^\ text {box} $的优势在对象检测上和0.5 $ \ text {ap}^\ text^\ text {bask} $上的实例段上。 Lomar在预处理的高分辨率图像上特别有效,例如,它比MAE快3.1 $ \ times $,分类准确性为448 $ \ times $ 448 $ 448。这种本地掩盖的重建学习机制可以轻松地集成到任何其他生成的自我监督学习方法中。我们的代码可在https://github.com/junchen14/lomar中公开获得。
translated by 谷歌翻译
最佳N(BON)平均位移误差(ADE)/最终位移误差(FDE)是评估轨迹预测模型的最常用的度量。但是,BON并未量化整个生成的样品,从而使模型的预测质量和性能不完整。我们提出了一个新的度量标准,平均的马哈拉诺邦距离(AMD)来解决此问题。 AMD是一个指标,可以量化整个生成样品与地面真相的距离。我们还介绍了量化预测总体传播的平均最大特征值(AMV)度量。通过证明ADE/FDE对分布变化不敏感,具有偏见的准确性感,我们的指标在经验上得到了验证,与AMD/AMV指标不同。我们介绍了隐式最大似然估计(IMLE)的用法,以替代传统生成模型,以训练我们的模型,社会意义。 IMLE训练机制与AMD/AMV的目标一致,即预测与地面真相接近的轨迹。社会上图是一种记忆有效的深层模型,仅实时运行5.8K参数,并实现竞争成果。该问题的交互式演示可以在https://www.abduallahmohame.com/social-implitic-amdamv-adefde-demo上看到。代码可在https://github.com/abduallahmohamed/social-implitic上获得。
translated by 谷歌翻译
我们在本文中解决的主要问题是如何扩展对看不见类(也称为零局学习)的视觉识别,以达到成千上万的类别,如Imagenet-21K基准中。在这个规模上,尤其是ImageNet-21K中包含许多细粒类别的规模,学习质量的视觉语义表示至关重要,它们具有足够的歧视性,足以识别看不见的类别并将其与见证的类别区分开来。我们提出了一个\ emph {h} ierarchical \ emph {g} raphical知识\ emph {r}基于置信度的分类方法(被称为HGR-net)的EPRESENTATION框架。我们的实验结果表明,HGR-NET可以利用层次结构概念知识来掌握类遗传关系。与Imagenet-21K基准的亚军方法相比,我们的方法大大优于所有现有技术,使性能提高了7 \%。我们表明,HGR-NET在几个场景中学习有效。我们还分析了较小的数据集(例如ImageNet-21K-P,2-s-s和3-shops)的方法,证明了其泛化能力。我们的基准和代码可在https://kaiyi.me/p/hgrnet.html上获得。
translated by 谷歌翻译
本文提出了一种有效的方法,以基于原始和新分布的条件概率差异来学习解除戒开的陈述。我们近似模型泛化能力的差异,使其适合标准机器学习框架,可以有效地计算。与最先进的方法相比,依赖于学习者的适应速度到新分布,所提出的方法只需要评估模型的泛化能力。我们为所提出的方法的优势提供理论解释,我们的实验表明,所提出的技术是1.9--11.0 $ \ times $比以前的各种任务的方法更快地获得9.4--32.4倍。源代码可用于\ url {https:/github.com/yuanpeng16/edcr}。
translated by 谷歌翻译
视频显示连续事件,但大多数 - 如果不是全部 - 视频综合框架及时酌情对待它们。在这项工作中,我们想到它们应该是连续的信号的视频,并扩展神经表示的范式以构建连续时间视频发生器。为此,我们首先通过位置嵌入的镜头设计连续运动表示。然后,我们探讨了在非常稀疏的视频上培训问题,并证明可以使用每剪辑的少数为2帧来学习良好的发电机。之后,我们重新思考传统的图像和视频鉴别器对并建议使用基于Hypernetwork的一个。这降低了培训成本并向发电机提供了更丰富的学习信号,使得可以首次直接培训1024美元$ ^ 2 $视频。我们在Stylegan2的顶部构建我们的模型,并且在同样的分辨率下培训速度速度较高5%,同时实现几乎相同的图像质量。此外,我们的潜在空间具有类似的属性,使我们的方法可以及时传播的空间操纵。我们可以在任意高帧速率下任意长的视频,而现有工作努力以固定速率生成均匀的64个帧。我们的模型在四个现代256美元$ ^ 2 $视频综合基准测试中实现最先进的结果,一个1024美元$ ^ 2 $ state。视频和源代码在项目网站上提供:https://universome.github.io/stylegan-v。
translated by 谷歌翻译
我们介绍了域名感知持续零射击学习(DACZSL),顺序地在视觉域中视觉识别未经证实的类别的图像。我们通过将其划分为一系列任务,在DomainEnt数据集之上创建了DACZSL,其中类在培训期间在所见的域中逐步提供,并且在看见和看不见的课程上进行了看不见的域。我们还提出了一种新颖的域名不变的CZSL网络(DIN),这胜过了我们适用于DACZSL设置的最先进的基线模型。除了全球共享网络之外,我们采用基于结构的方法来缓解来自以前的任务的知识,并使用小的每任务私有网络。为了鼓励私人网络捕获域和任务特定的表示,我们用一个新的对抗性知识解除义目设置训练我们的模型,以使我们的全局网络任务 - 不变和域中的所有任务都是不变的。我们的方法还要学习类明智的学习提示,以获取更好的类级文本表示,用于表示侧面信息,以启用未来的未经看不见的类的零拍摄预测。我们的代码和基准将公开可用。
translated by 谷歌翻译
In lifelong learning, the learner is presented with a sequence of tasks, incrementally building a data-driven prior which may be leveraged to speed up learning of a new task. In this work, we investigate the efficiency of current lifelong approaches, in terms of sample complexity, computational and memory cost. Towards this end, we first introduce a new and a more realistic evaluation protocol, whereby learners observe each example only once and hyper-parameter selection is done on a small and disjoint set of tasks, which is not used for the actual learning experience and evaluation. Second, we introduce a new metric measuring how quickly a learner acquires a new skill. Third, we propose an improved version of GEM (Lopez-Paz & Ranzato, 2017), dubbed Averaged GEM (A-GEM), which enjoys the same or even better performance as GEM, while being almost as computationally and memory efficient as EWC and other regularizationbased methods. Finally, we show that all algorithms including A-GEM can learn even more quickly if they are provided with task descriptors specifying the classification tasks under consideration. Our experiments on several standard lifelong learning benchmarks demonstrate that A-GEM has the best trade-off between accuracy and efficiency. 1
translated by 谷歌翻译
Humans can learn in a continuous manner. Old rarely utilized knowledge can be overwritten by new incoming information while important, frequently used knowledge is prevented from being erased. In artificial learning systems, lifelong learning so far has focused mainly on accumulating knowledge over tasks and overcoming catastrophic forgetting. In this paper, we argue that, given the limited model capacity and the unlimited new information to be learned, knowledge has to be preserved or erased selectively. Inspired by neuroplasticity, we propose a novel approach for lifelong learning, coined Memory Aware Synapses (MAS). It computes the importance of the parameters of a neural network in an unsupervised and online manner. Given a new sample which is fed to the network, MAS accumulates an importance measure for each parameter of the network, based on how sensitive the predicted output function is to a change in this parameter. When learning a new task, changes to important parameters can then be penalized, effectively preventing important knowledge related to previous tasks from being overwritten. Further, we show an interesting connection between a local version of our method and Hebb's rule, which is a model for the learning process in the brain. We test our method on a sequence of object recognition tasks and on the challenging problem of learning an embedding for predicting <subject, predicate, object> triplets. We show state-of-the-art performance and, for the first time, the ability to adapt the importance of the parameters based on unlabeled data towards what the network needs (not) to forget, which may vary depending on test conditions.
translated by 谷歌翻译